sft

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

监督微调（SFT）和强化学习（RL）微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展，但是在文本分类场景，强化学习未取得较大的进展，其表现往往不如监督学习。

训练 vivo lab rl sft 2025-09-22 11:08 10

SFT远不如RL？永不过时的剃刀原则打开「终身学习」大模型训练

SFT远不如RL？永不过时的剃刀原则打开「终身学习」大模型训练

我们已经进入了大模型时代，越来越多的应用依赖大模型的能力，可以说大模型已经成为智能化基础设施的核心组成部分，支撑着语言，视觉分析，智能驾驶，机器人等各种下游应用。

模型 rl sft 剃刀远不如rl 2025-09-10 10:29 15

SFT远不如RL？永不过时的剃刀原则打开「终身学习」大模型训练的大门

SFT远不如RL？永不过时的剃刀原则打开「终身学习」大模型训练的大门

我们已经进入了大模型时代，越来越多的应用依赖大模型的能力，可以说大模型已经成为智能化基础设施的核心组成部分，支撑着语言，视觉分析，智能驾驶，机器人等各种下游应用。

模型 rl sft 剃刀远不如rl 2025-09-09 19:44 11